Descubriendo la dispersión de activación intra-experto para la ejecución eficiente de modelos de mezcla de expertos
Dispersión de activación intra-experto: técnica para ejecución eficiente de modelos de mezcla de expertos, reduciendo costos computacionales sin sacrificar rendimiento.